数据来源 [Cortez et al., 2009].

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties.

In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

数据集描述

## [1] 1599   12
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00      
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00      
##  Median :0.07900   Median :14.00       Median : 38.00      
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47      
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00      
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00      
##     density             pH          sulphates         alcohol      quality
##  Min.   :0.9901   Min.   :2.740   Min.   :0.3300   Min.   : 8.40   3: 10  
##  1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   4: 53  
##  Median :0.9968   Median :3.310   Median :0.6200   Median :10.20   5:681  
##  Mean   :0.9967   Mean   :3.311   Mean   :0.6581   Mean   :10.42   6:638  
##  3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   7:199  
##  Max.   :1.0037   Max.   :4.010   Max.   :2.0000   Max.   :14.90   8: 18

是否有空值

## [1] FALSE
  1. 数据集有12个变量,1599条记录。
  1. 数据集记录中没有空值,即每一项记录的值都完整。

单变量分析

  1. 红酒质量有0~10共11个level,0分表示质量最差,10分表示质量最高。 本数据集包含3~8共6个level。评分为5的红酒最多。
  2. 其他观察值
  1. 本次探索主要关注红酒质量。
  1. 个人估计红酒酸度和酒精含量可能和红酒质量相关。
  2. 本次探索仅使用数据集中数据变量,不新建变量。

红酒质量

由直方图直观感受,红酒质量应该符合正态分布,验证如下

红酒质量确实 符合正态分布, 质量特别好的红酒和质量特比差的红酒数量相对较少。最多的是质量中等的红酒。

酒精浓度

  • 酒精浓度分布左偏。
  • 酒精浓度集中在9%~12%之间,符合红酒为低度酒的直观感受。
  • 酒精浓度分布比较集中,过高过低酒精含量的红酒都比较罕见。

使用log酒精浓度分布依然为左偏分布。

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   8.4   9.1   9.5  10.2  11.1  12.8  14.9

95%的红酒中的酒精浓度分布在9.1~12.8之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "1.528e-10"

p-value<0.05, 酒精浓度 不符合正态分布

硫酸盐

  • 硫酸盐添加剂分布左偏。
  • 硫酸盐添加剂分布右侧有长尾,尝试log转换。

Log转换后硫酸盐添加剂分布左偏有所改善,但分布依然不是很对称。

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##  0.33  0.44  0.55  0.62  0.73  1.08  2.00

95%的红酒中的硫酸盐添加剂分布在0.44~1.08之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "3.138e-05"

硫酸盐添加剂, 使用log转换,依然 不是正态分布

pH

  • 红酒pH主要集中在3~3.6之间,总体低于4,有较强酸性。
  • pH分布比较对称,接近正态分布。
##    Min   2.5%    25%    50%    75%  97.5%    Max 
## 2.7400 3.0195 3.2100 3.3100 3.4000 3.6105 4.0100

95%的红酒中的pH分布在3.02~3.61之间, 大部分红酒有较强酸性。

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                            "0.05398"

p-value>0.05, pH 符合正态分布

密度

  • 红酒密度分布接近正态分布。
  • 大多数红酒的密度低于1。
##      Min     2.5%      25%      50%      75%    97.5%      Max 
## 0.990070 0.992939 0.995600 0.996750 0.997835 1.000400 1.003690

密度与水十分接近,存在微小的差距。

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                            "0.07139"

p-value>0.05, 密度 符合正态分布

二氧化硫

  • 二氧化硫分布左偏。
  • 二氧化硫分布右侧有长尾。
  • 尝试log转换。

  • 使用log调整后,二氧化硫分布不再左偏。
  • 使用公式验证是否为正态分布。
##   Min  2.5%   25%   50%   75% 97.5%   Max 
##     6    10    22    38    62   131   289

95%的红酒中二氧化硫含量集中在10~131之间。

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                             "0.2616"

p-value>0.05, 使用 log 调整后的二氧化硫分布, 符合正态分布

带硫元素的离子

  • 硫元素的离子分布左偏,右侧有长尾。
  • 尝试log调整。

log调整后硫元素的离子分布不再左偏,略有右偏。

##    Min   2.5%    25%    50%    75%  97.5%    Max 
##  1.000  3.000  7.000 14.000 21.000 40.525 72.000

95%的红酒中带硫元素的离子含量在3.00~40.53之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                           "0.001775"

p-value<0.05, log调整后,硫元素的离子含量依然 不符合正态分布

非挥发性酸

  • 非挥发性酸分布略左偏,右侧有长尾
  • 尝试log调整。

  • log调整后,非挥发性酸分布不再左偏。
  • 依然不是非常对称。使用公式检验是否正态分布。
##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   4.6   5.6   7.1   7.9   9.2  12.5  15.9

95%的红酒中非挥发性酸含量在5.6~12.5之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                           "5.14e-05"

p-value<0.05, log调整后, 非挥发性酸依然 不是正态分布

挥发酸

  • 挥发酸略左偏,右侧有长尾。
  • 左偏幅度不大,尝试sqrt调整。

  • sqrt调整后挥发酸分布不再偏斜,但依然不是很对称。
  • 使用公式验证是否为正态分布。
##   Min  2.5%   25%   50%   75% 97.5%   Max 
## 0.120 0.240 0.390 0.520 0.640 0.915 1.580

95%的红酒挥发酸的含量主要集中在0.24~0.92

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                             "0.1207"

p-value>0.05, sqrt 调整后,挥发酸分布 符合正态分布

柠檬酸

  • 柠檬酸在0和0.5附近,有两个极值。
  • 柠檬酸含量普遍比较低。
##   Min  2.5%   25%   50%   75% 97.5%   Max 
##  0.00  0.00  0.09  0.26  0.42  0.66  1.00

95%的红酒柠檬酸的含量集中在0.00~0.66

剩余糖分

  • 剩余糖分分布,左偏,有长尾。
  • 大部分红酒的剩余糖分比较低,说明红酒是低糖饮品。
  • 尝试log调整。

log调整后,剩余糖分分布依然左偏,有长尾。

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   0.9   1.4   1.9   2.2   2.6   6.3  15.5

95%的红酒剩余糖分的含量集中在1.4~6.3

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "< 2.2e-16"

log 调整后,剩余糖分依然 不是正态分布

含盐量

  • 红酒含盐量分布左偏,有长尾。
  • 红酒含盐量普遍较低,是低盐饮品。
  • 尝试log调整。

  • log调整后,含盐量左偏有所改善,但右侧依然有长尾。
  • 使用公式验证是否为正态分布。
##   Min  2.5%   25%   50%   75% 97.5%   Max 
## 0.012 0.048 0.070 0.079 0.090 0.205 0.611

95%的红酒含盐量集中在0.048~0.205

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "2.021e-14"

p-value<0.05, log调整后,含盐量依然 不是正态分布

双变量分析

矩阵图

相关性大于0.4:

  • quality & alcohol: 0.476
  • alcohol & density: -0.496
  • density & fixed.acidity: 0.668
  • citric.acid & fixed.acidity: 0.672
  • total.sulfur.dioxide & free.sulfur.dioxide : 0.668
  • pH & fixed.acidity: -0.683
  • pH & citric.acid: -0.542

红酒质量 & 酒精浓度

  • 评分较低的红酒,质量和酒精含量相关度较弱
  • 评分5以上的红酒,酒精含量和质量呈正相关。

挥发酸 & 红酒质量

  • 红酒质量评分低于7时,挥发酸含量越低,红酒质量越高
  • 红酒质量评分为7、8时,挥发酸含量影响不大
  • 总体而言,挥发性酸和红酒质量负相关

酒精浓度 & 密度

由图可知,酒精浓度越高,密度越低

非挥发性酸 & 密度

由图可知,非挥发性酸含量越高,密度越大

非挥发性酸 & 柠檬酸

由图可知,非挥发性酸含量越高,柠檬酸含量越高

二氧化硫 & 硫元素离子

由图可知,二氧化硫含量越高,硫元素离子含量越高

非挥发性酸 & pH

由图可知,非挥发性酸越高,pH越低

柠檬酸 & pH

由图可知,柠檬酸越高,pH越低

多变量分析

酒精浓度 & 密度 & 质量

  • 不同质量的红酒, 酒精含量和密度均呈负相关。
  • 不同质量红酒的线性拟合直线有交叉,说明酒精含量和密度相对红酒质量找不到相关性

非挥发性酸 & 密度 & 质量

  • 不同质量的红酒,非挥发性酸和密度都呈现正相关
  • 质量最高的红酒,密度均小于1
  • 由线性化拟合可以观察到,质量较好的红酒分布在相对密度较低区域
  • 质量评分较高的红酒拟合直线,没有交叉,说明对质量评分高于5的红酒,综合考虑非挥发性酸和密度,非挥发性酸含量相同时,密度和红酒质量呈负相关

非挥发性酸 & 柠檬酸 & 质量

  • 不同质量的红酒,非挥发性酸和柠檬酸均呈正相关。
  • 除去评分为3的红酒,其他质量的红酒在非挥发性酸相同情况下,质量平分和柠檬酸呈正相关。
  • 质量评分为3的红酒,非挥发性酸和柠檬酸的拟合直线斜率和其他质量评分的拟合直线差异较大,破坏了整体柠檬酸和质量的相关性。

二氧化硫 & 硫元素离子 & 质量

  • 不同质量的红酒,二氧化硫含量和硫离子含量正相关,符合直观感受。
  • 不同质量拟合直线由交叉,说明二氧化硫和硫离子相对红酒质量评分找不到相关性。

非挥发性酸 & pH & 质量

  • 不同质量的红酒,非挥发性酸和pH值负相关,符合直观感受。
  • 不同质量的拟合直线交叉,说明非挥发性酸和pH值相对红酒质量,找不到相关性。

挥发酸 & 酒精浓度 & 质量

  • 不同质量的红酒,酒精含量和挥发性酸含量相关度差异较大。即总体而言,酒精含量和挥发性酸含量找不到相关性。
  • 在整个酒精含量较低,挥发性酸含量较高区域,集中了评分最低的红酒。
  • 在酒精含量相对较高挥发酸含量较低区域,集中分布了评分较高的红酒。

最终汇总

质量分布

大部分评分集中在5和6,高分低分都比较少。

红酒质量 & 酒精浓度

较高质量的红酒有相对较高的酒精浓度。

挥发酸 & 酒精浓度

  • 不同质量的红酒,酒精含量和挥发性酸含量相关度差异较大。,即总体,酒精含量和挥发性酸含量找不到相关性。
  • 在整个酒精含量较低,挥发性酸含量较高区域,集中了评分最低的红酒。
  • 在酒精含量相对较高挥发酸含量较低区域,集中分布了评分较高的红酒。

反思

整个分析过程主要围绕红酒质量和与他相关度较高的几个变量进行分析,分析过程中也分析了一些其他的变量。

始终没有发现某一化学物质和红酒质量有强相关性。初步分析时由于挥发性酸和质量间的相关性为0.39<0.4,没有分析这个变量,后来尝试分析,得到更多有意义的结论。

分析过程,不必要有精确条件才开始分析,接近的条件,也可尝试分析。

分析过程中直接数据找不到相关性时,可以尝试均值,拟合线。

多变量分析时,开始是将不同质量的红酒对应的散点图分开画,虽然每个质量的范围比较明确,但由于拟合直线分别画在不同图形中,失去了对比。开始没有找到均值之间的关系。当拟合之间画在同一个图形中,对比明显,更容易得到比较结论。

本次探索仅有1599条记录,如果后续有更多记录,可以更加精确测试数据间的相关性,尝试建立质量预测模型。